Alibi 位置编码

问题分析

当大模型在训练和预测时的输入长度不一致时，模型的泛化能力会下降。若外推能力不佳，大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱，RoPE（Rotary Position Embedding）的外推能力有一定提高但仍然有限。

解决方案

支持Alibi位置编码，提高模型外推能力。

解决思路:

Alibi算法给attention score添加了一个预设的线性偏置矩阵（如下图所示），使模型能够理解输入之间的相对位置关系。由于位置信息直接作用于attention score上，位置差异性被突出，使模型具有较强的外推能力。

原文链接

使用方法

（1）对于不使用融合算子fusion_attention的情况，设置--position-embedding-type alibi即可调用该算法。

（2）对于使用融合算子fusion_attention的情况设置 --alibi-fusion-attn-type 2（支持0，2，3） 0表示生成alibi后传入，1暂不开放， 2和3表示核内生成， 3做pse的时候会做sqrt。如果要设置alibi为对角线对称取反，则需设置alibi_diagonal_opposite，反正（亦是默认情况，且与2和3时内核生成一致）无需进行设置。

使用效果

模型外推能力提高。

Ascend / MindSpeed

Alibi 位置编码

问题分析

解决方案

解决思路:

使用方法

使用效果

简介

发行版

贡献者

近期动态

Ascend / MindSpeed .gitee-modal { width: 500px !important; }

Alibi 位置编码

问题分析

解决方案

解决思路:

使用方法

使用效果

简介

发行版

开源评估指数源自 OSS-Compass 评估体系，评估体系围绕以下三个维度对项目展开评估：

贡献者

近期动态

搜索帮助

Ascend / MindSpeed